Skip to content
Built 26/04/15 21:30commit c6006a5

中文 | English

Andrej Karpathy @karpathy 2026-01-26

这里是一些最近大量使用 Claude 进行编程后的随手笔记。

编码工作流。 随着最近 LLM 编码能力的提升,和很多人一样,我很快就从 11 月份“80% 手写+自动补全、20% agent”切换到了 12 月份“80% agent、20% 编辑+收尾”。也就是说,我现在确实主要是在“用英语编程”,有点不好意思地用文字告诉 LLM 应该写什么代码。自尊心多少会受点伤,但一旦你适应、配置、学会使用并真正理解它的边界,以这种“大块代码动作”方式操作软件的收益实在太大。对我来说,这是二十多年编程生涯里基础工作流最大的变化,而且只用了几周就发生了。我猜现在工程师群体里已经有相当高的双位数比例在经历类似转变,但普通大众对此的认知可能还停留在很低的个位数百分比。

IDE、agent swarm 与可错性。 现在“已经不需要 IDE”与“agent swarm 万能”这两种说法,在我看来都说得太满。模型当然仍然会犯错;只要你真的在乎那份代码,我就会建议你像鹰一样盯着它,而且最好在旁边放一个好用的大 IDE。如今的错误不再主要是语法问题,而是更微妙的概念性错误,像一个有点草率、急躁的初级工程师会犯的那种。最常见的问题是:模型替你做了错误假设,然后一路跑下去却不核实。它们也不太会管理自己的困惑,不太主动请求澄清,不太会暴露不一致、不太会呈现 tradeoff,也不太会在该 push back 的时候 push back,仍然有点太迎合。进入 plan mode 会好一些,但我仍然觉得需要某种轻量级 inline plan mode。它们还特别喜欢把代码和 API 复杂化:抽象膨胀、死代码不清理,等等。它们可能会实现一个低效、臃肿、脆弱的一千行方案,而你只要说一句“呃,其实不能直接这样做吗?”,它们就会回答“当然可以!”,然后立刻把它砍到一百行。它们有时还会顺手改掉或删掉它们不喜欢、或没看懂的注释和代码,即使那些内容与当前任务无关。尽管我已经在 CLAUDE.md 里做过一些简单约束,这些问题仍然存在。即便如此,总体上它依然是巨大的净增益,我已经很难想象回到纯手工编码。TL;DR:每个人都会形成自己的工作流;我现在的模式是左边 Ghostty 开几个 CC session,右边 IDE 用来读代码和做少量手工编辑。

韧性。 观察一个 agent 顽强地解决问题很有意思。它们不会累,不会泄气,只会继续尝试,而人类往往早就放弃、改天再战了。看着它为同一个问题挣扎很久,最后 30 分钟后突然攻克,这是非常“feel the AGI”的时刻。你会意识到,耐力其实是工作的核心瓶颈之一,而有了 LLM,这个瓶颈被大幅推高了。

加速。 “LLM 帮助带来了多少速度提升”并不好衡量。我当然感觉自己做原本要做的事快了很多,但更主要的变化是:我会去做更多原本根本不会做的事,因为 1)很多代码以前不值得写,现在值得了;2)以前由于知识或技能门槛而不敢碰的代码,现在也能靠近了。所以当然是加速,但更像是边界扩张。

杠杆。 LLM 非常擅长在循环中一直工作,直到满足明确目标,这正是许多“feel the AGI”魔法出现的地方。不要只告诉它“做什么”,而要给它成功标准,然后看它去跑。让它先写测试再把测试跑通;把浏览器 MCP 接进循环;先写一个大概率正确的朴素算法,再让它在保持正确性的前提下优化。把自己的方式从命令式转成声明式,agent 就能循环更久,你也能获得更多杠杆。

乐趣。 我原本没想到,有了 agent 以后,编程反而更有趣了,因为许多填空式苦力被拿掉,剩下的是更有创造性的部分。我也更少感觉卡住,胆子更大了,因为几乎总有办法和它协作,推动一点正向进展。当然我也看到相反的感受;LLM 编程会把工程师区分成两类:真正喜欢“写代码”的人,和真正喜欢“建东西”的人。

退化。 我已经注意到,自己手写代码的能力在缓慢退化。生成(写代码)和辨别(读代码)在大脑里是不同的能力。因为编程有太多细碎、偏语法层面的细节,即使你自己已经写不太顺手了,往往仍然可以很好地审代码。

Slopacolypse。 我已经在为 2026 年做心理准备了:GitHub、Substack、arXiv、X/Instagram,以及几乎所有数字媒体都会迎来“垃圾内容大爆炸”。与此同时,AI hype productivity theater 也会更多,当然,真实而实在的改进也会更多。

问题。 我现在脑子里常想的几个问题:

  • “10X engineer” 会发生什么?平均工程师和顶尖工程师之间的生产率差距,也许会变得更大。
  • 有了 LLM 之后,通才会不会越来越胜过专才?LLM 更擅长补足细节(micro),而不是制定大战略(macro)。
  • 未来的 LLM 编程体验到底像什么?像打星际争霸?打 Factorio?还是像演奏音乐?
  • 社会里究竟有多少工作被数字知识劳动瓶颈卡住?

TL;DR:LLM agent 能力,尤其是 Claude 与 Codex,已经跨过某个门槛。它们还远远不完美,但已经足够强到可以彻底改变默认的软件工作方式。